创业者深度解读苹果Vision Pro,XR行业的未来在哪里?
6 月 6 日,苹果发布会当晚,Founder Park 组织了一场创业者直播活动,光鉴科技、诺亦腾和蜂巢科技的三位创业者与极客公园张鹏一起,分享、探讨了苹果发布会、Vision Pro 产品和技术细节,以及整个 XR 行业接下来的发展方向。
本次直播信息密度非常好,在 Founder Park 社区内获得了极高的反馈,所以我们第一时间整理了两个多小时近 2 万字的内容,文字版如下,经编辑整理。
直播嘉宾
WWDC最大的惊喜
张鹏
苹果 WWDC 2023 发布了 Vision Pro 头显设备。苹果把它定义为下一代的空间计算设备。
整场 WWDC 持续了两个多小时,对各位而言,昨天的发布会有没有一些印象深刻的时刻,以及被惊艳到的新功能?
戴若犁
肯定就是 Vision Pro,还有它的 Video See-Through*功能。
*Video See-Through(VST): 一项 AR 技术,利用摄像头捕捉周围环境的视频,并将其与计算机生成的虚拟内容结合显示在头戴设备的透明显示屏上,从而在用户的视野中创造出一个融合了真实和虚拟元素的场景。
我一些去现场体验的(懂行)朋友说,Vision Pro 确实超过了及格线,甚至达到了很高的水准,我之前没想过会做的这么好。
夏勇峰
理性上讲,我印象最深的是 Vision Pro 的屏定得很稳。
SLAM 的精度目前其实是我们很大的一个瓶颈,发布会的时候我一直在看它是不是炫的,发现一点也不炫,这个非常厉害的,大部分的产品目前还做不到这样的技术。
感性上讲,我印象最深的还是迪斯尼 CEO Bob Iger 演示的 What If,我从这段展示深刻地感受到,对这种设备来说内容至关重要,它能充分调动你感性的热情。
朱力
我想到的一个词叫「魔鬼都在细节里」,因为那些功能其实在发布会前多多少少大家都了解到了。但真正作为用户去理解的话,还是能从一些细节差异中体会到苹果的不同。
我能想象到苹果的人加班就为了扣一点点细节的样子。
达到预期了吗?
张鹏
今年科技圈给我的感觉是蹦蹦跳跳往前走。从去年末到今年,又是大模型,又是苹果的新时代。
今天三位嘉宾都对 XR 有比较深入的了解。你们觉得相较于发布会之前了解到的信息,Vision Pro 的发布结果是超出预期,还是低于预期了?
戴若犁
我觉得从硬件设备,或者说基础的人机交互,还有一些功能点上面,都是完全达到预期,甚至于是超预期的。但是在内容上其实还是有一些逊于预期。
在内容侧很多还是所谓的 2D 转 3D,就是 2D 的内容在 3D 空间当中平铺,呈现,使用。这样一个转换并没有真正用到深度信息或者沉浸式的能力。所以在内容侧我略略有一点失望。
因为这种大的主机级别的东西出现,通常会有 1-2 个杀手级别的应用,这次 Vison Pro 明显一个都没有。我猜测苹果来不及,或者没有想好真正的 MR native 的应用到底是什么样子。
但是回过头说,Vision Pro 把能力全部都展现出来了,硬件的能力、显示的能力、交互的范式都定义好了,那么接下来可能通过苹果强大的号召力,让生态的合作伙伴,不管是 Unity 还是迪士尼进来,带来一些真正的 AR、MR 内容。
总而言之,我对硬件和基础能力这一半非常满意,但是在内容一半略有失望。
张鹏
朱力作为苹果前员工,是如何评价这个产品的?
朱力
从理性上来说在预期之中,功能和大家之前能想象的没什么太大出入,没有什么很特别的黑科技,没有那种完全突破我们认知的东西。这个跟 ChatGPT 大模型那一波超出预期的认知不太一样。
从感性上来说,真的看到一个完成度这么高的工业产品还是挺感动的。
张鹏
再加上配上「One more thing」这样一个有特定意义的 PPT,我感觉库克当时说的时候有一种绷得很紧的弦得到释放的感觉。
戴若犁
感觉都快破音了。
朱力
他接班了十二年终于等到了这一天。
张鹏
勇峰,把关键的结论留给你,你怎么看?
夏勇峰
之前我得到的信息让我以为它的定价会在 2700-2800 美元,那最后定到 3499 我还是有一点奇怪。
这个定价会让我对整个事情更乐观一点,因为定到这个价格证明苹果还是在盈利上有一定的考量。如果刚开始就是一次纯投入的话,我觉得价格会再往下再拉一些。
整体产品我觉得从 Mike Rockwell 到苹果的八年里一直在做,并且坚持到到推出来,就证明苹果身上还有一些理想化的、勇敢的气质在里面。
产品本身的内容上的克制,我完全能理解。这个反而是更加理性,希望把这个事做成的方式。
内容选择的克制,界面选择用户更习惯的使用操作。从逻辑上讲是成功概率更大的一件事情。
张鹏
小夏提供了一个很重要的视角,就是我们从 Vision Pro 能看到苹果很认真地去做一个划时代的产品,并且把它作为一个接下来要创造更多价值的主力,而不更多是为了创新的名头,越克制可能越意味着这是一个认真的事。
谁会成为「新黑莓」?
张鹏
有外媒报道,说 Vision Pro 发布后,之前抢跑的 Meta 的 Quest 3 基本就成了 AR 版的黑莓。
这个评价非常辛辣。在 VR 领域长期观察的若犁怎么看?
Vision Pro 出来后会不会对 XR 领域的路线、方向或者产品的定义带来根本性的改变?
戴若犁
我首先不太同意这个说法。
在我看来 Vision Pro 要能成为黑莓就已经非常非常不错了。其实可以把黑莓看成是一个阶段性的解决方案,它解决了很大一部分人群的特定需求,比如说高度的保密性,大规模的文字录入,随时随地联网等等。
回看黑莓手机发布巅峰时期的市值是多少?非常高(2008 年超过 800 亿美元,对比 2013 年出售时 47 亿美元)。并且单款产品的年销售额超过千万。那么 Vision Pro 能过千万吗?肯定过不了。
目前 Vision Pro 比较保守的销量预测是 80 万台,比较激进的认为今年能到 30 - 50 万台,明年到 1、2 百万。
Vission Pro 的下一代 Vission NON Pro,能成为黑莓我们就谢天谢地了。
那另外一个我觉得就是 Vision Pro 的定价有一个自我保护,自我免责的态度在里边,就是我卖不出来量是因为本来就没有想卖很多。苹果会认为它的定位人群就是 early adopter 里头的有钱人和不在乎这个东西落灰的人群,一部分这样的人会愿意花钱。
所以这个定价我不觉得它是克制,某种程度上是压根不关心到底会卖多少台。
而我比较担心的是它不能形成留存用户,如果很多人买回来用了几周后就撂那不用了非常可怕。因为可能用户会想为什么我要戴它?
作为一个 Video See-Through,而不是 Optical See-Through,他们付出了很多学习和佩戴的代价,还有电量焦虑。最后发现能玩的只是一些 2D 转 3D 的内容。这样到明年,会不会成为压垮元宇宙,AR,VR 的最后一根稻草。作为从业者我对此没那么乐观。
张鹏
从你的视角去看,苹果可能因为知道这东西的销量不可能起来,不如就定一个高一点的价格。
小米Mix刚发布的时候走的则是另一条价格路线。当时雷老板说,既然这个东西因为成品率低我也造不出那么多,不如就定一个交朋友的价格。价格问题各有各的解读,都很有意思。
朱力
以我的理解,定价没那么复杂。这个里面涉及到 operation marketing 产品,各种团队的 battle,最后达成一个各方平衡的结果。所以不见得有那么多的深思熟虑。
但刚刚提到那个 Meta 是不是黑莓时刻这个问题,其实本质上 Meta 和 Apple 的产品定位非常不一样,Meta 的定位需求是娱乐。Apple 的核心定位还是在专业应用上面,影音体验这些都得往后稍一些。所以它的定价也非常不一样。
从工程理解上,Apple 是从芯片开始去做一个系统,但是 Meta 更倾向于是一个把已有技术做一些整合的公司。所以它们能够做到极致的程度是不一样的。
只有苹果能做的是什么?
张鹏
我们今天能看到 Vision Pro 深度摄像头带来的震撼,其实也很想让我去知道,苹果在背后技术上的高度到底在哪?为什么只有苹果能做?为什么这个技术这么难?
朱力
我觉得分三部分。
第一部分是关于感知技术,包括摄像头和传感器等。在过去的 17 年里,通过 iPhone 产业的成熟,这些技术得到了不断地完善。例如,深度感知技术就是通过 iPhone 前置摄像头实现的,而光线感知则是通过后置摄像头实现的。这些工作都是为了积累 AR 技术所做的准备。从产业的角度来看,不论是苹果还是其他公司,都有能力做到这一点。
计算部分来说,对于 VR 体验,人们常常抱怨的一个问题是延迟。对 MR 来说,Video See-Through 需要将数字内容和物理环境高度融合在一起,这就要求摄像头的延迟要极低。
但实际上,我们在相机方面的追求都是在 33 帧或 30 多毫秒的范围内,这已经是一个具有挑战性的任务了,不是通过购买零部件组装的系统可以轻易实现的。
因此,这个处理器是非常有价值的。当然,如果未来需求足够大并且方向足够明确,肯定会将这两个芯片合并在一起,打造成一个芯片,但这将增加更高的壁垒。
张鹏
小夏,从你的视角看会觉得苹果哪些东西是一般人做不了的?
夏勇峰
我认为首先是 M2 和 R1 芯片。关键在于这些芯片的依赖于规模经济,如果你对自己的终端没有足够的信心,你就无法制造这样的芯片。
对于专有芯片来说,如果没有足够的客户,它也无法发挥作用。而苹果从最终的消费终端一直到芯片的前端,它在这方面设置了产业门槛和商业门槛,这是一般人无法做到的。
此外,还有很多传感器和基于传感器的算法,这些算法运行在 R1 芯片上,并且具有低延迟。最终,它与软件和 UI 的结合使整个系统一体化,我认为只有少数几家公司能够做到这一点。但是这涉及到许多不同领域的能力,整合这些资源的能力也是非常稀缺的,相对而言,它并不是通过简单投入资金就可以解决的问题。
不过 Vision Pro 的透镜还是由供应商提供的,不是他们自己研发的。
张鹏
只要不自研的都可以花钱解决?
夏勇峰
只要有足够的资金,还是可以解决的。这是一个门槛,但并不是非常高。
比如 UI 里面的要素难度没有那么大。关键是要雇佣足够多的设计师和工程师。这对于一般公司来说也是无法承担的巨大开销,而且很可能在一两代产品中无法获得正向的商业回报。
相对而言,技术核心门槛不高,资金门槛更大。
三种交互,一套系统
张鹏
从 VR 过去操作习惯看,大家还是比较适应使用手柄。现在 Vision Pro 用指尖捏一下就可以操控,很多用户反而不适应。若犁能不能帮我们分析一下无手柄交互体验的目标和难度?
戴若犁
这个确实是挺大的一个惊喜,但是符合苹果一贯的,相对自然和去工具的逻辑,你看那个 iPhone 就是第一个把触控笔去掉的手机,从那时起苹果笃信的是,最好的人机交互的工具应该是手指。
另外,这一轮的人机交互系统在业界已经经过多年的成熟和推演。无论是头部的六自由度追踪(head tracking),眼球追踪(eye tracking),手部追踪(hand tracking),还是基于手部追踪衍生出来的手势识别(gesture recognition),每个环节都经过了深入的研究和发展。它们都经过了多年的技术积累和改进。
这四个点在人机交互领域已经被研究了很多年,但大家一直以来对这几个技术点相对独立地进行研究。然而,苹果这次将这几个技术点统一起来,形成了一套整合的交互系统。它不是几个独立的交互方式,而是一个综合运用头部动作、眼动、手部追踪和手势识别的交互系统。
这样的综合运用使得交互体验变得非常出色。首先,苹果利用头部和眼球追踪来进行精确的点选操作,而不是采用传统的方式。这也解释了为什么乔布斯表示永远不会在 MacBook 上加入触摸屏,因为他们认为让用户举起手进行人机交互是非常疲惫的,并且精确性也无法得到很好的体验,不是一种优秀的方式。
因此,在这次的交互中,你会发现它是一种非常轻微的手部追踪交互。用户的手是下垂的,不需要举起手去点击或触摸,在大部分时间里,它使用微小的手势识别来确认操作,这些手势识别发生在视野边缘。
这种点选操作是非常自然的,只需看着需要选择的对象,稍微捏一下,确认操作就完成了。因此,这整套交互系统是非常科学且具有深厚功力的。一般来说,从事手势识别和手部追踪的人,往往倾向于使用物理交互方式,或者像 Hololens 当时展示的将三维实体或窗口放在面前,用户可以拖拽或旋转它们的交互方式。
这种交互方式看起来非常自然,但并不持久,而且对于手部追踪的深度和精确度要求非常高。苹果的设计算法只对眼动追踪和头部追踪的三个自由度的精度有要求,对平面内的手势识别有要求,对深度要求非常低。
因此,综合考虑,我认为这套设计非常出色。
(笑)我不是想自夸哈,但是 2016 年、2015 年的时候,我曾经整理出来的一套交互非常像。
手眼交互背后的技术
张鹏
那我再把话题转到朱力这边,今天能做到用如此自然的方式交互,拍出带深度的视频照片,在摄像头这块,产品的研究难度在哪?
朱力
对于终端设备而言,最核心要解决的就是人机交互的定义问题。把这个定义好了,剩下的是由开发者来做。
过去苹果的几代产品,它做好的其实也是这部分,剩下的应用还是主要靠生态来做。
简单解析一下,以眼球追踪和手势控制为例,涉及到几个系统。首先是使用深度加上 RGB 摄像头或 2D 摄像头来追踪手部的系统。
深度相机的性能就是每秒的帧数,帧数越高,所需的计算量就越大,而且每一帧都需要通过各种算法来计算深度信息,它并不是简单地实时拍摄所见即所得的。这对计算能力、功耗和性能有极高的要求,而设备本身又是一个电池续航能力有限的设备。
另一方面,眼球追踪需要非常高的速度,并且所有这些系统都需要非常同步地连在一块。对于人机交互而言,稍微一点的延迟或偏差,用户都会有明显的体验瑕疵。
因此,在这个系统中,如何实现信号的同步至关重要。他们提到的 15 毫秒可能是指整个系统的响应时间,但内部可能需要更高精度的调度和同步,精确到个位数毫秒的级别,这需要从底层开始调度。这也是其他厂商难以在短期内迎头赶上的一个原因。
3D 扫描并不是一个特别困难的问题,因为随着手机技术的发展,3D 扫描建模已经成为一项相对普遍的功能。将扫描得到的模型传送到系统中只是一个软件开发的问题。
张鹏
确实,关键是如何让用户真正使用起来。有时候,一个技术虽然可行,但最终它需要嵌入到某种产品或场景中,让用户真正开始使用,才能取得真正的成就。技术的可行性本身并不能解决任何问题。
所以苹果现在定价如此高昂,可能在短期内并不是每个人都能够使用,但我认为它值得期待,再过几年可能会有更多的人开始使用。
张鹏
小夏觉得苹果这次交互层面的交互设计足够惊艳吗?Vision Pro 的 4K 显示效果怎么定义,未来会不会有其他厂商跟上?
夏勇峰
Vision Pro 的交互,我觉得总体来讲更适合 VR-base 的设备。
首先,它包括眼动仪和周围的摄像头。如果你真的要在一个 AR 设备上使用它,需要在户外或各种环境中工作,可能会面临一些挑战。我认为它更适合在一个相对温暖舒适的环境中使用,比如在一个舒适的沙发上或者人体工学椅上。在这样的场景下使用设备会更加自然。
因此,我认为在重度的 AR 领域使用眼动仪可能存在一些限制,但对于 VR 设备来说则更加适合。
如果眼动仪的解决方案无法适用,例如需要一个更薄的眼镜,没有物理位置可以容纳眼动仪,那么我们可能需要另一种解决方案。
另外,手部识别因为最近手机的计算摄影在很大程度上得到了改进,所以只需要一两个简单的 RGB 摄像头,并将其定位在手部位置,实现手部识别的技术难度相对较低。
总体而言,我认为这套交互经验适用于 VR base 的眼镜,但对于其他设备,特别是未来可能普及的 AR 相关设备是否适用,还有待观察。
显示问题我比较熟悉。我觉得这个问题的核心不在于屏幕技术和透镜,而是在于把一个超 4K 分辨率的屏幕可以实时无时延的轻松的去驱动和反馈,这是有难度的地方。
张鹏
小夏提到了一个非常现实的问题。即使有人能花 3 万多,也可以用 4K,但有没有芯片来驱动,能不能降低延迟也是一个大问题。
今天发布的用了 4K 屏幕,那未来 8K 屏幕有可能实现吗?还是说 4K 就是算力决定的极限了?
夏勇峰
4K 并不是极限,特别是在 VR base 的设备中,如 micro-OLED 技术。这些设备的屏幕面积较大,因此物理上可以实现。但是在 AR 设备中可能会遇到一些困难。
驱动这些屏幕的主要问题实际上是移动计算芯片的驱动能力。传统的 PC 或处理器级别的芯片相对较容易驱动,而移动芯片的核心问题在于体积小且应用场景有限。
单眼 4K 够用吗?
张鹏
Vision Pro 这次没有提到刷新率的事情,但是在 VR 上大家一般都比较关注这个参数,如何看待这个问题?
戴若犁
我可以理解。发布会是给消费者看的,所以重点在品牌。它不会硬谈一些没人感知的指标性东西,这个时候谈刷新率没什么意义。
在实际的发布会上,他们没有提及具体规格,我觉得这是正确的做法。因为对于普通消费者来说,只需要告诉他们到达高清画质就可以了,不需要告诉他们分辨率或刷新率等技术细节。
关于 8K 和 4K 的问题,我认为最早关于 8K 的猜测可能是基于在 VR 设备上实现视网膜显示(retina display)所需的分辨率。我们可以将视网膜显示定义为达到一定像素密度(PPD)以上,例如 60 至 65 PPD。
目前,4K 的像素密度大约不到 30 PPD,据我们粗略估算大约为 30x27x28。
现场的专家朋友们的反馈是他们并没有认为这对他们造成任何困扰。他们需要非常努力地去辨认才能看到所谓的纱窗效应或像素。一旦被剧情或应用吸引,他们就会忽略这一点。
因此,我认为这是在找到一个平衡点,而不是因为工艺或成本原因无法实现。使用 M2,单眼 4K 分辨率这样的性能,能够有效地驱动设备,并保证刷新率,同时不给渲染带来过大的压力。
张鹏
没错,实际上过去我们只能通过运行一些基准测试来评估设备的性能。如果用户能够获得惊人的体验,实际上他们未必会关注具体的技术细节。
在这次发布会中,还有一个我觉得很值得关注的方面,就是苹果所谓的 EyeSight,也就是将用户与现实世界连接起来的能力。
EyeSight 的使命
张鹏
EyeSight 似乎是苹果非常强调的功能,怎么理解它的意义?它的难度,以及苹果做这件事有什么启发?
朱力
我觉得这是一个非常人文的问题。如果 VR 是只关注设备和用户之间的关系,(Vision Pro)EyeSight 的理念是:使用设备的用户和这个世界的关系是怎样的,(数字与现实)空间怎样共存。
VR 可能会有限制,MR 会好一些,如果有更多人参与到这样的生活环境里,会是怎样的?
我理解这代产品更像是一个酷炫的笔记本电脑,本身解决笔记本电脑的需求,但是有更酷炫的交互。戴着这台设备,可以理解为一个人拿着 MacBook 去咖啡馆,他会怎样与他人生中周围的人共处?
这是一个严肃的问题。因为社交需求是人的本质需求之一,如果因为设备的设计缺陷,没有办法满足这个需求,这将成为用户把这款产品束之高阁的一个因素。
所以我觉得苹果是在把这件事往前想一步。
但是反过来说,这也与苹果的文化有关。苹果内部有个团队,HID,Human Interaction Design(人机交互设计)。
这是绝对的「眼睛长在脑门上」,他们张张嘴,工程师跑断腿。他们可以无穷地提需求,在任何可以设想的环境之内思考设备、用户和这个世界的关系。
还有一点,我一开始说的,「魔鬼在细节里」。到底想多深?在细节方面用户怎样和环境达到和谐?最终落到工程上,不管是「想到」还是「做到」,都很不容易。
「苹果这东西能学吗?」
张鹏
朱力对苹果这些文化和特点都非常了解。
我见过很多创业者,内心非常追求极致的细节,但就是没有那么多的带宽和资源,去无尽地追求极致,能把一两点打穿往前走一步就不错了。
这是一个「真相」吗?朱力有苹果经验,现在也是个创业者,你觉得苹果这东西能学吗?
朱力
我看到这个产品,从工程师角度来说,「大丈夫当如是」,(笑)对吧?这真是把好的技术都堆到一个产品里,做到极致的体验。
但我们所面对的现实,大多数时候还是得面对:你的东西好,但多少钱?
有时候还得回答:我加你这个东西,我的产品能额外卖多少个?卖多少钱?
这种问题其实很难回答。用户到底是用你的品牌价值来消费,还是用你的规格、技术指标来消费?这个概念非常非常不一样。
嗯。怎么讲呢?希望有朝一日,在我们工作的这个产业链里,也能走到这一天。
但确实很难。
VST和OST有什么区别?
张鹏
苹果的很多东西确实让大家很向往,也确实是我们应该追求的目标。但并不是说,我追求这个目标,用户就应该爱我。它是用一步一步赢得的能力去追求这一点,这才是真正的难。
我看到(弹幕)一堆人 cue 罗(永浩)老师。我下午还真专门跟罗老师探讨了一下,但私下的,不能说。
从 EyeSight,我们可以把话题延展到 VST 和 OST 两个头显的技术路线,我问问三位,苹果采用 VST 是不是定义了这是未来的主流?OST 还行不行?
最近好像大家对这个不同路线的讨论很多。
戴若犁
先给观众解释一下:Video See Through 和 Optical See Through 两条路线。
苹果这次的头显,包括 Meta 的 Quest 和 Quest Pro,都是靠摄像头拍外界,再以视频的形式非常低时延地缝合好了再投给你看,让你感觉像看穿了一样。
Optical See Through 指的是像 Hololens,Magic Leap 包括(夏)勇峰他们的产品这样,可以直接看到外界,只是在外界真实世界上叠加一些数字资产。
我个人觉得两件事会殊途同归,最后会「握手」。
OST 会不断扩大显示的域和显示的能力,VST 会不断降低时延,增加亮度,提高渲染精度和缝合精度,可能最终达到的效果,会让大家觉得差不多。
但未来 5 - 10 年,可能很难看到殊途同归的那一天。
很有可能,VST 会走相对重度的应用路线,沉浸式、短时间的体验。具体解决一个问题,比如 Vision Pro 和 Quest Pro,沉浸式游戏、远程协同办公,生产力工具,在具体、固定的时间,在室内完成一个确定性任务,然后(用户)就关了,取下来。
OST 可能更多是全日佩戴,拥抱轻量化,陪伴型的设备,这个设备是可以全天佩戴到室外去的。
我知道勇峰他们第一代的产品,入眼亮度非常非常高,超过 1000 尼特。
夏勇峰
1800 尼特。
戴若犁
室内大概 4、500 尼特就够了。室外我以前的经验是,1200 尼特以上是可以看的,导航、文字是可以看的。
总结就是 OST 的解决方案,更多是轻度的,全天候的全日佩戴应用;VST 是 VR 游戏协同办公生产力工具,这两种路线都不会死,都有用武之地。
OST 难在哪里?
朱力
因为我自己是搞光学的,总的来说,VST 主要挑战在用电方面,拍成像比较成熟,显示也还好,主要是电。计算和电方面怎样能有更丝滑的体验?
然后 OST 主要是在光学上,光波导怎样有更好的亮度,更大的市场。
从我自己家做科研和产业的经验来说,光的问题总是更难解决的,它更难被摩尔定律所规模化,工艺的标准化,包括成本的下降等等(问题),都没有这个归因显得那么容易。
总的来说,MR 是苹果最先的选择,也是这个原因。就是把电的东西玩好了,相对来说跟现在的时间更接近一些。
光还有很多调整。我从一些侧面的了解来看,过去四五年(衍射光波导)这个方向并没有发生特别本质的变化,大家都在努力,但还没有看到一个大的突破说,我们能做一些非常不一样的事。
张鹏
朱力说了一个非常重要的视角:有些东西是可以依托摩尔定律去成长的。
弹幕有人说如果未来算力不是瓶颈的话,VST 就有优势了。朱力刚刚说的也是这个感觉,光这件事向前演进,与电子层面的相比会更难一些。
勇峰来聊聊,你身处(行业)其中,选择了 OST 的路线,未来是不是坚定这条路线,还是会兼容其他?
夏勇峰
为什么苹果先选 VST,因为对它来说这条路线相对更简单。
如果 OST 的难度和 VST 一样的话,我相信苹果第一个推出的会是 AR 眼镜。
VST 的简单体现在几个方面。
关键是算力,虽然是瓶颈,但是苹果这些年发展的特别快,它自己的芯片。
第二,整个 camera 计算摄影,发展的也非常快。
但想要实现真正的 OST,目前为止技术条件还不成熟,就算有这个需求,现在也做不出来。
主要在两方面:
第一,目前,这两年刚刚开始成熟的,是阵列光波导。它现在还有各种各样的杂散光问题,因为物理世界的光非常复杂,通过光源的折射衍射,最后入瞳。整个过程比较复杂,有很多实际的场景,需要去验证,并试图理解,去解决这些问题,这是一个非常复杂,从技术到执行,都比较难的事。
阵列光波导这两年在逐渐成熟,但是衍射光波导,以我在业内的概念,起码还需要 3 - 5 年时间才能成熟。
相对来说,MicroLED 几乎大家一致认为是最终搭配衍射光波导的光源解决方案。
MicroLED 国内做的比较好,但目前为止比较流畅的量产应该还是单绿色的 .13 的光源。
我们之前看到有些厂商,比如 OPPO,在他们的 AR 眼镜里也出现过。目前模组出货量每年已经在 10k 级别以上。
但之后要解决红光的问题。要出现一个彩色的 MircoLED,然后通过几年迭代提升分辨率,这个过程起码 3 年时间。
在技术相对可用之后,我们才能去谈有没有用户需求、产品形态等等这些问题。
所以 OST 本身是一件更难的事。苹果未来如果要做 AR 眼镜,我觉得如果是非常理想的,要在 2026、2027 年甚至再往后。它和 VST,也就是 Vision Pro 这样的产品,可以不在一个阶段。
可能第三代、第四代产品,还是没有办法实现(OST)。
但我认为它最终肯定是一个 OST 的设备,这会是最终的答案。
不仅是我选择了这个方向,同样也是因为它更轻巧,跟世界可以更直观地建立联系。当它的光机达到一定的效能后,除了 FOV 可能永远跟不上 VST,几乎 80% 的场景都可以囊括掉(后者),特别在一些内容消费的场景。
这就是我的观点。
VST 的天花板是什么?
戴若犁
我补充两句。
VST 底层有一些问题,要解决(这些问题)才有可能从生产力工具变成一个全日佩戴的设备。
首先一点,刚刚张鹏 cue 了老罗,我也 cue 一下。有次我们私下聊天讨论行业的时候,他曾经提过,VST 这种设备要变成全日佩戴的设备,代价是一代人。
他认为把脸遮住让人走出去,变成全日佩戴设备这件事,不是轻巧薄和舒适度能解决了,它改变了人的社交习惯,这种巨大的社交习惯的改变,它的代价不是产品多便宜多好用能解决的,它是一代人对这件事没有心理障碍才能解决。
当然它是一个纯感性的判断。
我还有一个相对理性的角度,就是在显示设备里,有一个问题,辐辏,辐辏冲突,用 VST 非常难解决。
简单说,我眼前一块屏,双目视差告诉我显示的东西在远端很远的地方,但事实上,我的眼睛、睫状肌仍然聚焦在一个很近的地方,这个冲突会让人觉得不适。
这件事,其实是 VR 设备、MR 设备,不管有没有用 Video See Through,都会有这种辐辏冲突的问题,很难解决。
AR 的虚像,显示的数字资产,也没有办法解决辐辏冲突的问题,但是视野里占比更大的其实是真实的世界,所以不会那么疲惫,辐辏冲突问题不会那么强。
所以这两个角度,老罗说的社交,或者说人的习惯,社会的压力,这个变化很难。
然后我觉得像辐辏冲突这样硬邦邦的现实摆在这里,想要变成一个全日佩戴的通用设备很难。但如果你定位成一个游戏设备、生产力工具,就只用 2、3 个小时,其实是没问题的。
VisionPro是个什么R?
朱力
我也补充一下,MR 和 AR 虽然都带着一个 R 字,但它们并不在一个框里。
我对未来的期许是:
MR,可以是我的一个笔记本电脑,可以背包里,我需要工作的时候,需要做一些更繁重的任务的时候就用。
AR,是一个帮我快速接入数字网络的便携式穿戴工具。
就像现在,我们出门包里可能放一个笔记本,兜里揣一个手机,并不冲突。
它们定位不是一个东西,所以我不认为它们之间有竞争。
戴若犁
我再补充一句,苹果这次发布会,全程(以及线下体验)都把设备形容描述成 AR,直接用了 AR 这个 term。
没有把它叫做 MR。
张鹏
苹果这次是想用这个方式来定义 AR。但实际上在 AR 的路线里还有很多人,大家比较认同 OST 的角度推进。
我很赞同刚刚朱力说的。从定价来看,当时我看它说是下一代空间计算设备,我就想,完了,至少 15000(人民币)起,MacBook Pro 大概就是这个价格嘛,高级生产力工具,再贵点 2 万。
结果没想到还要再贵一些,当然也可以理解。
总体来说它就是按照 MacBook Pro 再往下走,是个计算机,而不是手机的概念。
OST 的 AR,可能是最随身、器官型的设备。
刚刚有弹幕说今天四位都戴眼镜,是不是未来戴眼镜的有优势?
我告诉你,就是的,就是的。我们以后是最早一批,带着 VR/AR 眼镜,我们不头疼,我们不头晕,我们很开心,我们习惯鼻子上有东西,我们终于这么多年近视眼赢回一局(笑)。
夏勇峰
我没戴眼镜啊,(手指戳进镜框)我这是耳机哈。
张鹏
我知道。他是成心的,这是他的产品。
请大家去搜索一下小夏哥新的产品......
夏勇峰
不用不用不用不用。(笑)
为什么要12个摄像头?
张鹏
这台设备,12 个摄像头,3 块屏,很复杂。
这里有个 3D 摄像头,正好问问朱力,它跟 iPhone 上的深感摄像头有什么区别?有什么进化?未来会发挥怎样的作用?有什么延展空间?
朱力
目前看,我觉得这代产品定义高端,把能装的都装上去。
未来发展应该是做减法,用更少的零部件解决同样的问题。
从工程角度来说,肯定是这个(方向)。大家先对功能达成共识,做成什么样,用户体验的要求达成共识之后,再从硬件上去砍东西,维持原来的水平。
从模组上来说,我光看那个 True Depth camera,结构光的相机,更像 iPhone XS,17、18 年那两代 iPhone,它的发射和接收的间距是相对较大的。结构光的原理上,间距越大,精度越高,所以拉开的好处是能够看得更精准。
它也有一些挑战,拉开的话,工程设计、组装等等,比如你装在这个框上,如果框变形了,标的就全坏了,所以会有额外的挑战。
但其实现在最新的 iPhone 上,它的发射接收已经靠得很近了。之所以靠近,其实妥协了精度,好处是成本低了,组装(更简单)或者工业设计更好看了,但是因为算法能力增强,允许精度变差一点。
所以从细节上看的话,不管三七二十一,先把指标做到最好,让大家能接受体验,然后再想办法,把海绵的水分挤掉,把冗余的设计去掉。
夏勇峰
我稍微有点不同的意见。苹果 Vision Pro 这个产品,它的 3D 摄像头肯定不会干掉的。
因为它可以「看」3D,它必须具备自己产出 3D 内容的能力,这样才能构成一个创造内容、消费内容的最简单的循环。
而且它都在一个设备上解决。就像手机后摄拍完以后,屏幕很爽地看照片的体验。
领先一步可能你就挂了
夏勇峰
我们自己切入很简单,OST 技术不成熟,创业公司我们做硬件比较敬畏,所以会选择最小可运行模型去切入。
我们第一代产品就是一个相对较强的 camera,然后相对不是最强的芯片,以及一个能够全天候但是最小的 Micro OLED 的光机。这样它就有了,一个让你看内容的光机,一个可以处理信息的芯片,还有一个 camera。
我们会通过 toB、toC 两种途径,到现在有半年。
切入这个行业之后,我们最大的一个感受就是:
用户,特别是中国的用户,距离接受脸上有一个比较重的智能设备这件事,它的社会适应度差得还非常远。
美国相对好一些,因为它有 Quest,对数千万用户做了教育,有一个锚定的重和轻的概念。国内用户想象这个智能眼镜,和实际上佩戴它的体验,差得非常远。
第二,我们创业时就规划好了,做这个眼镜(指自己佩戴的),你可以理解为一个 TWS(真无线)的耳机,它和耳机最大的区别,就是可以从早到晚全天在线。因为传统的 TWS 耳机用完就要装进盒子里,它不会成为一个全天陪伴,距离你最近的智能设备。
还有空间的原因,它的续航,单次续航,比如我们现在直播、开会,它会比一般耳机续航更久一些。
以及它不用入耳,会比较舒服。
这个产品是我们到目前,唯一想到有可能是普通大众的需求,并且能快速往前推进的消费级产品。
智能眼镜的产品,同时采用了 speaker 的声音的方式。
我们未来的设备里,它也是一个需要长期积累,需要研究的方向。
接下来到技术成熟到一定程度,我们才会去做真正的 AR 眼镜。
因为你如果领先一步,可能你就挂了。
这个太花钱了。我们不像苹果,它可以把人类科技树往上拔一截,对吧?我们只能等到这个科技树快结果子的时候,我们去做个果子,(笑)对,这是我们能做到的。
张鹏
很务实。就像我们刚才说的,一颗良好的追求完美的心,并不能带来一个伟大的企业。伟大的企业就是靠实力,靠赚钱的,这才是创业的本质。
那个,刚才有弹幕问小夏的眼镜跑步能戴吗?肯定能戴。
夏勇峰
这个,今天不是来卖货的,我们还是回到,那个,对,回到主题。
空间音频有多难?
张鹏
发布会上其实也提到了空间音频,戴博怎么看?在之前的 VR/AR 头显上也有音频上的较劲和提升,Vision Pro 的空间音频相比之前有提升吗?
戴若犁
我讲一个小故事,大概 2014 年 Oculus DK2 发布的时候,有一天 Nvidia 的同事过来找我们,说现在有个新的技术叫做空间音频,在 VR 里面转头,虚拟的声音随之也会有方向的变化,你会觉得非常真实。
然后当时我问了一下这个东西的资源消耗是什么样的,他告诉我是另外一张显卡,当时我不记得是 970、980,还是更早的年代,一张显卡用来进行 Oculus DK2 的渲染刷新率,同时需要另外一张同规格的显卡进行空间音频的计算。这在七八年前大概是这样的一件事。
苹果这一次当然我还没有亲身体验过,如果把空间音频的解析度做得非常高,甚至可以做类似于像光追类似的音频反射,如果真的是在一个 M2 架构的小芯片里面实现了的话,那是非常非常厉害的,算法的优化和整个算力的分配,是很考验水平的。大概我能给这样的一些参考。
张鹏
空间音频其实在 Airpods Pro 里边是有的?
戴若犁
那个是另外一个层面的事情。
Airpods Pro 简单地说是一个 3DOF 的空间音频,只有一个方向感,没有办法感知有一只蚊子在面前左右横移,飞来飞去,听不到这样的效果,只能知道大概音频绕着头是哪个方向。
3DOF 的空间音频和 6DOF 的带折射的空间音频,不是一个难度,但是我现在看到大家的描述,似乎 Vision Pro 上面是实现了所谓的 6DOF。
6DOF 是怎么体现的,比如说我现在跟你们对着手机聊天,我闭着眼睛能大概感知到你们坐在什么地方,然后我前后移动,我还能感觉到你们的声音是变近了还是变远了,然后转头,发现你在我的侧面。一定要有位移,同时有转角才能说明它是 6DOF 空间音频。6DOF 空间音频实现的难度和需要的算力跟 3DOF 不是一个级别的。
光学和声学的互动
张鹏
那我正好问问朱力,你刚才讲你们也很在意比如驾驶舱的这些交互,那音频未来是不是也是交互里很重要的要考虑的东西?有什么难点?
朱力
我们现在做的,比如说在座舱里面,我们是通过视觉来增强音效,通过 3D 相机,我们可以定位每一个乘客头的位置和耳朵的位置,现在车里面有很多的喇叭,就可以做一些特殊的音效处理更好地让音效集中在耳朵的地方。
甚至有一些车可以通过喇叭来做一些主动降噪的事情,这其实是通过光学的定位和声学的设计一起组合来做的。但声学的部分到底施展了什么魔法?这个我还没有去深究,在回归技术的时候我可以再研究研究。
张鹏
有一天把这个光学和声学大一统起来,这个没准还真是一件有意思的事。
朱力
这个是现在已经都在做的事情。
比如说我们还是拿车举例,现在有一些车型,已经可以通过语音唤醒,来定位到底是哪一个用户在车的哪个座位上。在这个唤醒过程中,其实就相当于获得整个系统的控制权了,然后再通过各种光学声学的办法来去控制这整个系统,其实它已经是多传感融合的一套系统了。
到底多重?
张鹏
Vision Pro 目前的具体参数其实还没有特别清楚,没有公开重量,外接电池续航时长是 2 小时,依旧采用了有线的方式,重量、电池续航和有线无线的选择为什么会这么难?
戴若犁
前端一手体验的信息是,光头显的部分不含电池,手感重量是比 Quest 2(503 克)轻很多的。
如果能明显地感受到重量差异的话,我认为它应该是 300 多克。但是我不认为它能做到再轻了,它的主机部分加上织物,如果能做到 400 克,就已经是工程上面的奇迹了,我认为是 350 克到 400 克之间。
夏勇峰
之前得到一些信息,应该就是 400 克左右。
但是还有一点可能很多人都没有注意到,就是 Vision Pro 用起来特别影响发型。因为它前端比较重,在连接和支撑主机部分的织物,必须面积足够大、纵向足够长,才能够通过包住后脑来减轻前端的重量感,但是这样它就会压头发。
续航 2 小时,我是觉得这还不是功率全开的状态,当打开 3D 摄像头,或者看 3D 的影片,进行实时计算,估计撑 1.5 小时就差不多了,续航是非常不乐观的。
在太热的时候去佩戴,也会出现问题。虽然它两边都有风扇可以散热,但是热风不断地往下吹发热还是很猛的,其次织物的材质,在夏天被捂住是非常非常难受的,供种草的小伙伴参考。
戴若犁
同意。我也在想 Vision Pro 没有用头环,用的是直接压脸的策略。化妆的人应该怎么办呢?真的愿意把这个东西压在脸上吗?
张鹏
这可能真的是个问题,在日常工作时去使用,苹果的场景考虑确实不够 elegant。而且主机的贴合设计,甚至可以根据用户的脸型进行定制,是沉浸感非常强的设备。一个 10w 的设备戴在脸上,开启全功率进行最全面的体验,还是挺有挑战的。
朱力怎么看,Vision Pro 是不是只是一个目的地型的东西,本身就没准备让大家长期佩戴?
朱力
我觉得还是因为物理原理的限制。
刚刚提到 3D 相机一开,比如你在用手势控制,用虚拟键盘,我能想到光这个 3D 相机就给你带来一点几瓦的,功耗就出去了。
张鹏
(笑)直接就连瓦数就给算出来了。
朱力
我们也做这行,功耗很清楚。在这个物理限制之下,必然会有一个很大的电池,又不能做得特别夸张。所以我自己猜想 2 小时的来源可能是让你看完一部不带彩蛋的电影的时间去设计的。如果想要严肃地坐下来干一些事情,它也支持直接插电源使用。
张鹏
目前 Meta 的设备单次使用时长也从半个多小时上升到 1 个多小时了。
戴若犁
对。因为显示组件跟主芯片主要是耗电的大户,高通在这块其实已经做了大量的工作,确实把功耗一代一代地往下优化。
刚才也提到,苹果大家打了一个样,创业公司应该怎么追?
其实跟当年 Android 和 iPhone 的两个阵营一样,还是得要有供应链的大佬,像高通出来给大家 Turn-key 方案,交钥匙工程。再加上开源社区的一些贡献,总还是能够对抗那个已经变成了恶龙的屠龙少年的。还是有活路的。朱力:关于续航我想补充一句话,在我十五六年前上大学的时候,那会儿背着笔记本电脑上自习,如果不带充电器,续航也就是 1-2 个小时。那个时候我们没有那么多的抱怨,因为没见过续航那么长的,直到 MacBook air 出来续航可以达到 7-8 个小时,到现在达到 20 个小时,就是时代在慢慢变化。
张鹏
有道理。而且在这种高度集中的注意力下,人的续航能达到多长时间,也是一个要考虑的事情。朱力:对,人有一个注意力的周期,其实就 90 分钟。
猜猜能卖多少台?
张鹏
接下来是一个有意思的环节,我想让各位都来猜一猜,虽然我现在听到了一些信息,按高的说,苹果是想要到 100 万台的量,后来也有 80 万、 30 万、 50 万的说法。所以我想让大家来竞猜一下,Vision Pro 的销量会是多少?
戴若犁
我相对是比较悲观的,我觉得如果能完成 30- 50 万,我已经觉得很不错了。确实贵,也确实没用,现在要买它回去的人可能都是 researcher 或者说 early adopter。
朱力
我其实还是挺乐观的。我们就讲一个产品周期,可能也就 1-2 年左右的时间。因为价格是相对的,首先大家对美国的通货膨胀要比较有信心(笑),因为现在什么东西都贵了,所以相对来讲 Vision Pro 就也没显得那么贵。
第二个横向做个参考,比如说现在中美往返经济舱的机票,从上海飞到美国往返可能也需要 3000 多美元,那对于往返中美的人来说,多花一张票的钱,航班的体验就能好很多。
张鹏
诶,有道理啊。
你是从交通的角度,在飞机上戴这样的设备是很正常的事,就 double 一下。朱力
对,所以从这些角度来说,因为什么东西都变贵了,所以它就显得没那么贵。而且一开始讲这个定价,我觉得 3400 美元还是 2400 美元,其实差异没那么大。
关于销量,我觉得 80- 100 万台还是挺有机会的。美国家庭平均年收入有 3.7 万美金(CEIC 2021 年 12 月的数据),换算成一个月的收入,Vision Pro 的价格还在一个可以接受的范围。
夏勇峰
我估计 20-40 万台,过不了 50。
因为我们公司也做 ToB,Vision Pro 在 ToB 的圈子里大家都特别关注,而且价格对他们来说都不是问题。举个例子,在有些园区,要跟踪很多的监控摄像头,会有一个专门的中央监控室组成屏幕墙来监管,有了苹果的设备之后,就不需要这个屏幕墙了,公司财务付钱的,价格差异造成的影响不太大。但是上周我有一个 ToB 的伙伴,他所在的公司完成了 Hololens 在中国 80% 的销售,我当时觉得特别厉害,就问 Hololens 卖了多少台,只有 8000 台左右。
苹果跟 Hololens 在 ToB 上其实是有可比性的,加上 ToC 和社会端的影响力增加一部分的销量,但是综合考虑,没有核心非买不可的卖点,我觉得大概就 20-40 万台。当然如果 Vision Pro 能搭配一个为它定制的塞尔达王国之泪这样的游戏,我觉得可以再乘以 10 甚至 50。
苹果怎么连黑五都不要了?
张鹏
还有一个问题很现实,我很吃惊苹果竟然是明年年初发售,没有赶上今年圣诞销售季,是不是苹果对于品质的要求,意味着有些东西还没有准备好只能等到明年?
朱力
我也只能猜测。量产还是要走完标准的 EVT、DVT、 PPT 的流程,然后同时也要卡发布的时间点。
我猜想一个原因是他们可能觉得为了头显单独开一个发布会不是最恰当的事,因为 Vision Pro 还是为一个更大的开发生态来准备的第一代产品,如果要在 WWDC 上发布的话,它的时间表就会有一些挑战。而且历史上来看还是有不少产品因为各种原因去跳票的,我自己也体验过一些事情,这个太容易发生了。
张鹏
所以说白了这个事就是,苹果可能也不缺非要赶个黑五去增加 10 万台的量,也不那么在意。
朱力
对,反而我同意戴总前面讲的一点,今年发布还是很有勇气的。我其实也挺惊讶的,从务实的角度来说,第一点今年消费电子其实很疲软,第二点是发早发晚,一方取决于自己的战略,另外一方面也取决于竞争对手是什么样的,如果 Oculus 势如破竹,那苹果肯定得立刻出来去竞争这个市场,但实际上 Oculus 是有一些颓势的,所以这个时候其实再等一等挤挤牙膏,是一个更稳妥的策略。苹果现在能做这个事,还是让我挺刮目相看的。
戴若犁
我的猜测是要等应用。现在的状态是确实贵,确实没用,但是明年 1 月份,苹果当然希望送到消费者手里的是确实贵,但确实有用。这半年其实是要能真的变成一个生产力工具,一个沉浸式社交的工具,至少要变成一个特别好的观影工具,或者说轻度的游戏工具,要给应用一些更多打磨的时间。我反而觉得 EVT、DVT、 PPT 一次一次的爬坡不至于还需要半年。
张鹏
有道理。给开发者留半年的时间然后去把软装做好,我觉得还是挺好的,让它能又贵又有用,包括可能没准那时候大作也出现了。勇峰怎么看,关于苹果明年才发售,你有什么理解?
夏勇峰
我其实反而觉得,苹果这些年 6 月份发布的产品,明年上半年在美国卖,明年下半年在全球卖,已经很少见了。所以我更倾向于是,已经定了要发布,但是中间可能出了一些问题,导致本来会面世的硬件时间往后推迟了。
刚开始我也以为是为了等软件,然后我就很兴奋地跟我们的软件合伙人说,我们在 Vision Pro 上要做一个什么样的软件?我们就一起去看了开发的列表,忽然意识到一个事情,就是任何人都不能够拿到机器,没有办法去做兼容适配,只能基于 iPhone、 iPad 去做开发。苹果有一个 Work with Apple,开发者只能把开发好的东西交给苹果的工程师,让他们帮忙测试,测试完了之后也不知道什么时候能发,现在市面上也没有 Vision Pro 的硬件。
我觉得可能在等一些专项的比较大的软件或者是内容,如果说要等内容生态,不太可能。我倾向于是良率有可能在 PVT 试量产的阶段没有达到某个阀值,其次是可能某一个来料入场检测的时候发现它的良率有问题,我觉得这两个的概率相对会大一些。
张鹏
也提供了一个非常务实的视角,因为勇峰实际上也是在做 C 端的产品,当年他的产品也给我讲过故事,怎么把它调到一个合理的状态,其实是非常不好处理的。我有个印象,在发布会之前有看到一些内容提到库克对于这个产品并不满意。虽然我们都没有掌握具体的信息,但这件事还挺值得琢磨的。
我觉得今天其实咱们就聊到了一点,就是在某种程度上,库克选择在这个时候发布 Vision Pro,还是挺不像我们想象中四平八稳的苹果的形象,多少有一点老夫聊发少年狂的感觉。
需要库克的坚持和勇气
张鹏
按照大家的推理,其实也引发了一个问题,苹果这次发布头显之后对于产业的影响是怎么样的?对于 XR 的领域是一个很正向的,划时代的转折点吗?创业者的机会更大了吗?在这个领域的创业者,你们认为会发生什么,勇峰可以先说说。
夏勇峰
我现在只有一个非常美好的祝福,就是希望库克身体健康,他 64 岁了,希望他能多干几年晚点退休。苹果在这条路线上怎么往前走,会有非常大的一个影响。希望苹果继续做这个方向,能先保个底。
因为在一个公司没有一个绝对的独裁者的话,过于民主,在做硬件产品会有一些很大的问题,每个部门不管是出于创新的出发,还是出于自己部门需要创造价值出发,会做很多的加法,如果没有一个人大刀阔斧地去 say no,就会有一些比较严重的问题,会对它真正的创新和产品力带来一些负担,尤其是特别复杂的产品。然后头显不是处于一个行业爆发期的产品,还是早期孕育期的产品。
我们可以理解为 iPod,包括 iPhone,都是一个行业已经处于爆发期,作为一个非常卓越、尽善尽美的产品获得正在爆发的市场。但 XR 行业远远不是那样的,不管是从内部和外部来讲,现在都非常地艰难,在这个时候确实需要更多的勇气,更多的坚持。
张鹏
理解,勇峰的观点很明确。朱力觉得苹果的这个靴子落地之后,对这个领域会带来什么样的连锁反应?
朱力
我觉得我们身在其中可能觉得这个事足够大,但是在一个更大的视角看这个事也没那么大。苹果毕竟是一个一年上千亿美元利润的公司,像这种体量的公司做一个决策,它的观点完全不一样,负担也不太一样。所以这个事我倒不认为苹果在 XR 行业能起到那么至关重要的作用。
因为对于苹果来说,这是一条必然要去投入的路,在 iPhone 这个智能手机市场里,它已经无法被颠覆了,特别是华为被美国打压以后,其实根本没有办法被人挑战。可能唯一的风险就是在一个新的产品形态出现的时候,它没有办法跟上,所以才会被颠覆。
张鹏
虽然大家都把它当成是一个重要的指标,但是到底是不是因为苹果来了世界就变天了,也别想得那么多。苹果的决策是有自己的逻辑的。
戴博经历过 VR 领域,从初代的一路走过来,几波兴奋几多愁,这一波是该继续兴奋还是接着又发愁?
戴若犁
直到昨天晚上看发布会都还在垂死挣扎,期待不要发布这个产品。小圈子内相互信任的几个人都觉得不要发出来,因为发出来有比较大的风险,我们认为超过 50% 的风险会让市场觉得连苹果都带不动,那这个领域就没有人能坚持了。从前期泄露的很多信息,我们认为这个产品卖不了太多,这个产品带不来本质的变化,没有听说有任何第一方的大作,或者说第三方独占的大作,甚至于得到信息说苹果会相对比较轻视游戏,认为这是个生产力工具。
生产力工具体其实不是那么好做的,要改变人的用户行为,大家习惯了用 PC、用手机、用 Pad 去做生产力工具,突然要变成一个空中点击或者说视觉指点,这件事情变得太大了。所以衷心祝愿库克能够把这个事情做成,衷心祝愿它能够大卖最好能卖 1000 万台。但是我特别担心,这是我真实的想法。
张鹏
我觉得你们说的这一点我也挺认同的,就是我们在今天都是发自内心地希望库克身体健康,能在这个岗位上再多干至少 5 年,能够去护航他开启的 one more thing,让它走向一个阶段性的成功,而不要在中间轻易放弃,以至于这条线所有人的梦想就崩溃了。
那,元宇宙,咋办啊?
张鹏
再接着把话题往下延展一下,现在提 Metaverse,好像都有点恍若隔世了。想问一下戴博,Metaverse 这个概念在今天还有意义吗?
戴若犁
Metaverse 确实就是一个 term 而已,而且每个人对于它的理解也不一样。比如说我一直理解 Metaverse,描述的是一个时间的观念,而不是空间的观念,不是一个 digital second life,它描述的是人的生活里头数字部分占比的比例。我是不是用 VR/MR 的设备,其实并不是非常重要。所以我觉得 Metaverse 这个概念并不重要。
Metaverse 这个词被喊火,显然是被原来的 Facebook,现在的 Meta,真正地让普通人都知道这个词。其实我认为当时 Zuckerberg 也是为了作为一把手,要表个决心。所以在我看来,Metaverse 这个概念在苹果入场之后,应该会在苟延残喘一段时间,但是应该阻拦不了大家认为 AGI is the future,Metaverse 已经是明日黄花。
张鹏
来听听朱力怎么看 Metaverse 和 AGI,这俩个词看起来谁是谁的子集?
朱力
我完全认同,事实上我还做过一个简单的调研,想看看世界上有多少国家的人进入了刚刚戴总讲的那种 Metaverse 的概念。假设一个人睡 8 个小时,清醒 16 个小时,如果还有 8 个小时沉浸在互联网上,那就应该算是在这个 Metaverse 里面。我拿到的数据并不是一个经过 peer review 的科研数据,所以不好验证它的准确性,但是我看到的是,像中美这种经济活跃的国家,大家的平均时间大概是四五个小时,比我预期的可能要短一些,但是像菲律宾居然有 11 个小时,这让我非常诧异,就是越相对不发达的国家,大家在互联网的时间越多。
大家一定程度上已经进入到了非常数字化的生活形态,元宇宙讲的故事是,完全沉浸在一个数字生成的内容里面。AGI 讲的是通过 AI 的能力、数字生存的能力,能够帮助我们获得更加丰富、活跃的体验。这其实是更加广阔的概念,它不限制在一个纯数字的环境里面,否则就完全否定了人在生理上的需求。所以我同意Metaverse 是一个过度高估的概念,或者说我们已经在一定程度上生活在这个环境里。
张鹏
勇峰有什么观点吗?从我之前了解,好像你其实也一直不太在意 Metaverse 这个概念。
夏勇峰
我不是一直不太在意,我是一直反对它。能成我也反对,不能成我也反对。我很开心看到大家现在对它持有的看法。我觉得最核心的点是,人类不能够因为数字生活变成一种内向型的物种。我们现在做的每一个产品,我们的态度是希望能激励每一个人走出去,用更多的工具在现实的世界里增强他的能力,然后帮助他获得更多的价值,更多的收获。从大的角度上来讲,我觉得人类成为跨星球的种族这件事情非常重要,我愿意为此贡献我所有能贡献的东西。
Metaverse 本身我觉得它是一个危险的、被过度宣扬的概念,现在也实现不了,目前整体的体验,包括软件和硬件的体验还远远达不到能让人类去沉浸的一个状态。同时我非常非常担心,如果未来它实现了会是一个危机,是对人非常非常不好的事情。
张鹏
我们几位之所以能坐在一起聊,都是有原因的,说明我们对于世界观、价值观都很一致。
某种程度上人类能发展到今天,恰恰是因为很多的事需要努力奋斗、流血牺牲才能推动前进,没有那么轻易地就让每个人能过上幸福的生活,获得幸福是需要付代价和努力的,中间很多人会失败,少数人带来的突破就会让整个群体获得进步。包括我觉得勇峰说的多星球文明也是我很认同的,为什么要成为多星球文明,就是它足够难,足够难才能进步。所以这也是为什么我觉得 Metaverse 这样的一个完全被包裹的世界,最后人们成为缸中之脑,这个事其实是不乐观的。
AR 在与世界的接触上去加强人,这可能是做一个赚钱的生意之外,会在几十年之后还会被别人记住的东西,这也是创业者会去追求的东西。所以我蛮赞同各位的这种视角,非常开心。
我们计划开展 AI × 垂直领域的线上 Workshop「AGI Doer Talk」,未来也将持续邀请大模型领域里已经有产品 demo 的朋友来这里分享他们的新产品和背后的思考。
本周四(明天) 晚 8 点,来「AGI Doer Talk」分享的是两位在 AI × 阅读领域的创业者!欢迎感兴趣、想讨论的朋友扫描海报二维码,了解更多活动信息!
本次活动名额有限,需先扫码报名才可入会!